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(57) A bstract : The invention relates to a method 
of translating input data AVin into an output lexical 
sequence OUTSQ. During said method, sub-lexical 
entities and different possible combinations of said 
entities are identified as states ei and ej of first 
and second language models APMM and PHLM 
respectively. Said combinations are intended to be 
stored with an associated likelihood value Sij in a 
table TAB comprising memory areas. Moreover, 
each of said memory areas is intended to contain at 
least one combination of states (ei;ej) and is provided 
with an address equal to a value h[(ei;ej)] of a scalar 
function h that is applied to parameters specific to the 
combination (ei; ej). The invention can be used to limit 
the complexity of accessing information produced by 
a single transducer which is formed by a single Viterbi 
VM3 machine operating models APMM and PHLM. 

(57) Abrege : La presente invention concerne un pro- 
cede de traduction de donnees d' entree AVin en une se- 
quence lexicale de sortie OUTSQ, au cours duquel des 
entites souslexicales et diverses combinaisons possibles 
desdites entites sont identifiees en tant qu' etats ei et ej 
de premier et deuxieme modeles de langage APMM et 
PHLM, respective ment, destines a etre memorises, avec 
une valeur de vrai semblance Sij associee, dans une table 
TAB munie de zones memoire dont chacune est destinee 
acontenir au moins une combinaison d' etats (ei;ej) et est 
munie d T une adresse egale a une valeur h[(ei;ej)] d'une 
fonction seal aire h appliquee a des parametres propres a 
la combinaison (ei;ej). Uinvention permet de limiter la 
complexite 
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Procede de traduction de donnees au moyen d'un transducteur unique 

La presente invention conceme un procede de traduction de donnees d'entree en 
au moins une sequence lexicale de sortie, incluant une etape de decodage des donnees 
d'entree au cours de laquelle des entites lexicales dont lesdites donnees sont 
representatives sont identifiers au moyen d'au moins un modele. 

5 De tels precedes sont communement utilises dans des applications de 

reconnaissance de parole, ou au moins un modele est mis en oeuvre pour reconnoitre 
des informations presentes dans les donnees d'entree, une information pouvant etre 
constitute par exemple par un ensemble de vecteurs de parametres d'un espace 
acoustique continu, ou encore par un label attribue a une entite sous-lexicale. 

10 Dans certaines applications, le qualificatif "lexical" s'appliquera a une phrase 

consideree dans son ensemble, en tant que suite de mots, et les entites sous-lexicales 
seront alors des mots, alors que dans d'autres applications, le qualificatif "lexical" 
s'appliquera a un mot, et les entites sous-lexicales seront alors des phonemes ou 
encore des syllabes aptes a former de tels mots, si ceux-ci sont de nature litterale, ou 

15 des chiffres, si les mots sont de nature numerique, c'est-a-dire des nombres. 



WO 03/083832 ^^T/FR03/00884 



Une premiere approche povir operer une reconnaissance de parole consiste a 
utiliser un type particulier de modele qui presente une topologie reguliere et est 
destine a apprendre toutes les variantes de prononciation de chaque entity lexicale, 
c'est-a-dire par exemple un mot, inclus dans le modele. Selon cette premiere 
5 approche, les parametres d'un ensemble de vecteurs acoustiques propre a chaque 
information qui est presente dans les donnees d' entree et correspond a un mot inconnu 
doivent 6tre compares a des ensembles de parametres acoustiques correspondant 
chacun a l'un des tres nombreux symboles contenus dans le modele, afin d'identifier 
un symbole modelise auquel correspond le plus vraisemblablement cette information. 
10 Une telle approche garantit en theorie un fort taux de reconnaissance si le modele 
utilise est bien concu, c'est-a-dire quasi-exhaustif, mais une telle quasi-exhaustivite ne 
peut etre obtenue qu'au prix d'un long processus d'apprentissacr. du modele, qui doit 
assimiler une enorme quantite de donnees representatives J , tor i., variantes#e 
prononciation de chacun des mots inclus dans ce modele. Get arrarentissage est en 
15 principe r6alise en faisant prononcer par un grand nombre de personnes tous les mots 
d'un vocabulaire donne, et a enregistrer toutes les variantes de prononciation de ces 
mots. II apparait clairement que la construction d'un modele lexical quasi-exhaustif 
n'est pas envisageable en pratique pour des vocabulaires presentant une taille 
superieure a quelques centaines de mots. 
20 Une deuxieme approche a ete con9ue dans le but de reduire le temps 

d'apprentissage necessaire aux appUcations de reconnaissance de parole, reduction qui 
est essentielle a des applications de traduction sur de tres grands vocabulaires pouvant 
contenir plusieurs centaines de milUers de mots, laquelle deuxieme approche consiste 
a operer une decomposition des entites lexicales en les consid6rant comme des 
25 assemblages d'entites sous-lexicales, a utiliser un modele sous-lexical modelisant 
lesdites entites sous-lexicales en vue de permettre leur identification dans les donnees 
d'entree, et un modele d' articulation modelisant differentes combinaisons possibles de 
ces entites sous-lexicales. 

Une telle approche, decrite par exemple au chapitre 16 du manuel "Automatic 
30 Speech and Speaker Recognition" edite par Kluwer Academic Publishers, permet de 
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reduire considerablement, par rapport au modele utilise dans le cadre de la premiere 
approche d6crite plus haut, les durees individuelles des processus d'apprentissage du 
modele sous-lexical et du modele d' articulation, car chacun de ces modeles prSsente 
une structure simple par rapport au modele lexical utilise dans la premiere approche. 

5 Les modes de mise en oeuvre connus de cette deuxieme approche font le plus 

souvent appel a un premier et k un deuxieme transducteur, chacun forme par un 
modele de Markov representatif d'une certaine source de connaissances, c'est-a-dire, 
pour reprendre le cas de figure evoquS ci-dessus, un premier module de Markov 
representatif des entites sous-lexicales et un deuxieme modele de Markov representatif 

10 de combinaisons possibles desdites entites sous-lexicales. Au cours d'une 6tape de 
decodage de donnees d'entree, des etats contenus dans les premier et deuxieme 
transducteurs, lesquels etats sont t^ectivement representatifs de moderations 
possibles des entites sous-lexi:- ;^^fier et de moderations possibles^de 

combinaisons desdites entites sous-lexicales, seront actives. Les etat actives des 

15 premier et deuxieme transducteurs seront alors memorises dans des moyens de 
memorisation. 

Selon une representation conceptuelle elegante de cette deuxieme approche, les 
premier et deuxieme transducteurs peuvent etre representes sous la forme d'un 
transducteur unique equivalent aux premier et deuxieme transducteurs pris dans leur 

20 composition, permettant de traduire les donnees d'entree en entites lexicales, en 
exploitant simultanement le modele sous-lexical et le modele d' articulation. 

Selon cette representation conceptuelle, la memorisation des etats actives au 
cours de 1'etape de ddcodage equivaut a une memorisation d' etats de ce transducteur 
unique, dont chaque etat peut 8tre consider comme un couple forme par un etat du 

25 premier transducteur forme par le premier modele construit sur la base d' entites sous- 
lexicales, d'une part, et par un etat du deuxieme transducteur forme par le deuxieme 
module construit sur la base d' entites lexicales, d'autre part. Une telle memorisation 
pourrait £tre faite de maniere anarchique, au fur et k mesure que ces etats seront 
produits. Cependant, le nombre maximum d'etats differents que peut prendre le 

30 transducteur unique est tres grand, car il est egal k un produit entre les nombres 
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maxima d'etats que peuvent prendre chacun des premier et deuxieme transducteurs. 
Par ailleurs, le nombre d'etats du transducteur unique effectivement utiles pour le 
decodage, c'est-a-dire correspondant effectivement a des sequences sous-lexicales et 
lexicales autorisees dans la langue consideree, est relativement faible par rapport au 
5 nombre maximum d'etats possibles, particulierement si des etats dont l'activation est 
peu probable, bien que theoriquement autorisee, sont exclus par convention. Ainsi, 
une memorisation anarchique des etats produits par le transducteur unique conduit a 
utiliser une m6moire de taille tres importante, dans laquelle les informations 
representatives des etats produits seront tres clairsemees, ce qui conduira a utiliser 
10 pour leur adressage a des fins de lecture et/ou d'ecriture des nombres de grande taUle 
necessitant un systeme de gestion d'acces memoire indument complexe par rapport au 
volume deformations utiles effectivement contenu dans la memoire, qui induira des 
tempi i > ; ; vknoire importants et incompatibles avec des contraintes temporejJ.es 
propres par exemple a des applications de traduction en temps reel. 
1 5 1/ invention a pour but de remedier dans une large mesure a cet inconvenient, en 

proposant un procede de traduction de donnees mettant en oeuvre un transducteur 
unique et des moyens de memorisation destines a contenir des informations relatives 
aux etats actives dudit transducteur unique, procede grace auquel des acces en 
lecture/ecriture aux dites informations peuvent etre executes suffisamment rapidement 
20 pour autoriser une utilisation dudit procdde dans des applications de traduction en 
temps reel. 

En effet, selon l'invention, un procede de traduction de donnees d'entree en au 
moins une sequence lexicale de sortie inclut une etape de decodage des donnees 
d'entree au cours de laquelle des entites sous-lexicales dont lesdites donnees sont 

25 representatives sont identifiees au moyen d'un premier modele construit sur la base 
d'entites sous-lexicales predeterminees, et au cours de laquelle sont generees, au fur et 
a mesure que les entites sous-lexicales sont identifiees et en reference a au moins un 
deuxieme modele construit sur la base d'entites lexicales, diverses combinaisons 
possibles desdites entites sous-lexicales, chaque combinaison etant destinee a etre 

30 memorisee, conjointement avec une valeur de vraisemblance associ6e, dans des 
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moyens de memorisation qui incluent une plurality de zones memoire dont chacune 
est apte a contenir au moins Tune desdites combinaisons, chaque zone etant munie 
d'une adresse egale a une valeur prise par une fonction scalaire predeterminee lorsque 
ladite fonction est appliquee a des parametres propres a des entites sous-lexicales et a 
5 leur combinaison destinees a gtre memorisees ensemble dans la zone considered 

L'utilisation de zones memoire adressees au moyen d'une fonction scalaire 
pred6terminee permet d' organiser le stockage des informations utiles produites par ce 
transducteur unique et de simplifier la gestion des acces a ces informations puisque, 
conformement a l'invention, la memoire est subdivisee en zones destinees chacune a 
10 contenir des informations relatives a des etats effectivement produits par le 
transducteur unique. Ceci autorise un adressage desdites zones au moyen d'un nombre 
dont la taille est reduite par rapport a la taille necessaire pour l'adressage d'une 
memoire concue pour memoriser de maniere anarcbique n'importe quel couple d?etats 
des premier et deuxieme transducteurs. 
15 Dans un mode de mise en ceuvre avantageux de l'invention, on choisira pour 

fonction scalaire predeterminee une fonction essentiellement injective, c'est-a-dire 
une fonction, qui, appliquee a dififerents parametres prendra sauf exception des valeurs 
differentes, ce qui permet d'assurer que chaque zone memoire ne contiendra en 
principe que des informations relatives a au plus une seule combinaison d'entit&j 
20 sous-lexicales, c'est-a-dire a un seul etat du transducteur equivalent, ce qui permet de 
simplifier encore les acces auxdites informations en supprimant la necessite d'un tri, 
au sein d'une meme zone memoire, entre des informations relatives a differentes 
combinaisons d' entites sous-lexicales. 

Dans une variante de ce mode de mise en oeuvre, la fonction scalaire 
25 predeterminee sera en outre egalement essentiellement surjective en plus d'etre 
injective, c'est-a-dire que chaque zone memoire disponible est destinee a contenir 
effectivement, sauf exception, des informations relatives a une seule combinaison 
d'entites sous-lexicales, ce qui represente une utilisation optimale des moyens de 
memorisation puisque leur potentiel de memorisation sera alors pleinement exploite. 
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Dans cette variante, la fonction scalaire predeterminee sera en fait essentiellement 
bijective, en tant qu'a la fois essentiellement injective et surjective. 

Les parametres d'entree de la fonction scalaire predeterminee peuvent revetir de 
multiples formes selon le mode de mise en oeuvre de l'invention choisi. Dans l'un de 

5 ces modes de mise en oeuvre, le modele sous-lexical contient des modeles d'entites 
sous-lexicales dont differents etats sont numerates de facon contigue et presentent un 
nombre total inferieur ou egal a un premier nombre predetermine propre au modele 
sous-lexical, et le modele d'articulation contient des modeles de combinaisons 
possibles d'entites sous-lexicales dont differents etats sont numerotes de facon 

10 contigue et presentent un nombre total inferieur ou egal a un deuxieme nombre 
predetermin6 propre au modele d'articulation, les numeros des etats des entites sous- 
lexicales et de leurs combinaisons possibles constituant les parametres auxquels la 
fonction scalaire predeterminee est destinee a etre appliquee. 

La fonction scalaire predeterminee peut revetir de multiples formes selon le 

15 mode de mise en oeuvre de 1' invention choisi. Dans un mode as mise en oeuvre 
particulier de l'invention, chaque valeur prise par la fonction scalaire predeterminee 
est une concatenation d'un reste d'une premiere division entiere par le premier 
nombre predetermine du numero d'un etat d'une entite sous-lexicale identify au 
moyen du premier modele et d'un reste d'une deuxieme division entiere par le 

20 deuxieme nombre predetermine du numero d'un etat d'une combinaison identifie au 
moyen du deuxieme modele. 

Une telle concatenation garantit en principe que les valeurs des restes des 
premiere et deuxieme divisions entieres seront utilisees sans alteration aux fins de 
l'adressage des zones memoire, entrainant ainsi une reduction maximale d'un risque 

25 d'erreur dans l'adressage. 

Dans un mode de realisation particulierement avantageux de l'invention, en ce 
qu'il utilise des moyens eprouves et individuellement connus de rhomme du metier, 
l'6tape de decodage met en oeuvre un algoritbme de Viterbi applique conjointement a 
un premier modele de Markov presentant des etats representatifs de differentes 

30 modelisations possibles de chaque entite sous-lexicale autorisee dans une langue de 
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traduction donnee, et a un deuxieme modele de Markov presentant des etats 
representatifs de differentes moderations possibles de chaque articulation entre deux 
entites sous-lexicales autorisee dans ladite langue de traduction. 

Sous un aspect general, l'invention concerne egalement un proced6 de 

5 traduction de donnees d'entree en une sequence lexicale de sortie, incluant une etape 
de decodage des donnees d'entree destinee a etre ex6cutee au moyen d'un algorithme 
du type algorithme de Viterbi, exploitant simultanement une pluralite de sources de 
connaissances distinctes formant un transducteur unique dont des etats sont destines a 
etre memorises, conjointement avec une valeur de vraisemblance associee, dans des 

10 moyens de memorisation qui incluent une pluralite de zones memoire dont chacune 
est apte a contenir au moins l'un desdits etats, chaque zone efant munie d'une adresse 
egale a une valeur prise par une fonction scalaire predeterminee lorsque ladite 
fonction est appliquee a des parameter . etats dudit transducteur unique^ 

L'invention concerne egalement un systeme de reconnaissance de signaux 

15 acoustiques mettant en oeuvre un procede tel que decrit ci-dessus. 

Les caracteristiques de l'invention mentionnees ci-dessus, ainsi que d'autres, 
apparaitront plus clairement a la lecture de la description suivante d'un exemple de 
realisation, ladite description etant faite en relation avec les dessins joints, parmi 
lesquels : 

20 La Fig.l est un schema conceptuel decrivant un decodeur dans lequel un 

proc6de conforme a 1' invention est mis en oeuvre, 

La Fig.2 est un schema decrivant 1' organisation d'une table destinee a 
memoriser des informations produites par un tel decodeur, 

La Fig.3 est un schema fonctionnel decrivant un systeme de reconnaissance 
25 acoustique conforme a un mode de mise en oeuvre particulier de 1' invention, 

La Fig.4 est un schema fonctionnel decrivant un premier decodeur destine a 
executer au sein de ce systeme une premiere etape de decodage, et 

La Fig. 5 est un schema fonctionnel decrivant un deuxieme decodeur destine a 
executer au sein de ce systeme une deuxieme etape de decodage conforme au procede 
30 selon l'invention. 
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La Fig.l represente un decodeur DEC destine a recevoir des donnees d' entree 
AVin et a delivrer une sequence lexicale de sortie LSQ. Ce d6codeur DEC inclut une 
machine de Viterbi VM, destinee a executer un algorithme de Viterbi connu de 
l'homme du metier, laquelle machine de Viterbi VM utilise conjointement un premier 
5 modele de Markov APHM representatif de toutes les modelisations possibles de 
chaque entite sous-lexicale autorisee dans une langue de traduction donnee, et un 
deuxieme modele de Markov PHLM representatif de toutes les modelisations 
possibles de chaque articulation entre deux entites sous-lexicales autorisee dans ladite 
langue de traduction, lesquels premier et deuxieme modeles de Markov APHM et 
10 PHLM peuvent respectivement etre represents sous la forme d'un premier 
transducteur Tl destine a convertir des sequences de vecteurs acoustiques en 
sequences d' entites sous-lexicales Phsq, par exemple des phonemes, et sous la forme 
d'un deuxfe-..:,-.- '',!^c?acteur T2 destine a convertir ces sequences d»entites.sgus- 
lexicales Phsq en sequences lexicales LSQ, c'est-a-dire dans cet exemple en 
15 sequences de mots. Chaque transducteur Tl ou T2 peut etre assimile a un automate 
enrichi a etats finis, chaque etat ei ou ej correspondant respectivement a un etat d'une 
entity sous-lexicale ou a un etat d'une combinaison de telles entites identifies par le 
premier ou deuxieme transducteur Tl ou T2. Dans une telle representation 
conceptuelle, le decodeur DEC est done un transducteur unique, equivalent a une 
20 composition des premier et deuxieme transducteurs Tl et T2, qui exploite 
simultanement le modele sous-lexical et le modele d' articulation et produit des etats 
(ei;ej) dont chacun est un couple forme par un etat ei du premier transducteur Tl, 
d'une part, et par un etat ej du deuxieme transducteur T2, d'autre part, un etat (ei;ej) 
etant par lui-meme representatif d'une combinaison possible d' entites sous-lexicales. 
25 Conformement a l'invention, chaque etat (ei;ej) est destine a Stre memoris6, 
conjointement avec une valeur de vraisemblance Sij associee, dans des moyens de 
memorisation, constitues dans cet exemple par une table TAB. 

La Fig.2 represente scbimatiquement une table TAB, qui inclut une pluralit6 de 
zones memoire MZ1, MZ2, MZ3...MZN, dont chacune est apte a contenir au moins 
30 l'un desdits etats (eli;e2j) du transducteur unique, accompagne de la valeur de 
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vraisemblance Sij qui lui a ete attribute. Chaque zone MZ1, MZ2, MZ3...MZN est 
munie d'une adresse egale a une valeur prise par une fonction scalaire h 
predetermine lorsque ladite fonction est appliquee a des parametres propres a des 
entites sous-lexicales et a leur combinaison destinee a 6tre memorisee dans la zone 
5 consideree. 

Dans le mode de mise en ceuvre de l'invention decrit ici, la fonction scalaire h 
est une fonction essentiellement injective, c'est-a-dire une fonction qui, appliquee a 
differents parametres prendra sauf exception des valeurs differentes, ce qui permet 
d'assurer que chaque zone memoire MZm (pour m=l a N) ne contiendra en principe 

10 que des informations relatives a au plus une seule combinaison d'entites sous- 
lexicales, c'est-a-dire a un seul etat (ei;ej) du transducteur forme par le decodeur decrit 
ci-dessus. La fonction scalaire h est en outre egalement essentiellement surjective dans 
cet exemple, c'est-a-dire que chaque zone memoire MZm (pour m=l a N) est destin6e 
a contenir effectivement, sauf exception, des informations relatives a un etat (ei;ej) 

15 dudit transducteur. La fonction scalaire h est done ici essentiellement bijective, en tant 
qu'a la fois essentiellement injective et essentiellement surjective. Lorsque le 
transducteur produira un nouvel etat (ex;ey), il suffira, pour savoir si cette 
composition d'etats des premier et deuxieme transducteurs a deja ete produite, et avec 
quelle vraisemblance, d'interroger la table TAB au moyen de l'adresse h[(ex;ey)]. Si 

20 cette adresse correspond a une zone memoire MZm deja definie dans la table pour un 
etat (ei;ej), une identite entre le nouvel etat (ex;ey) et l'etat (ei;ej) deja memorise sera 
etablie. 

Dans ce mode de mise en oeuvre, le modele sous-lexical contient difKrentes 
modelisations possibles ei de chaque entite sous-lexicale, numerotees de fa9on 
25 contigue et presentant un nombre total inferieur ou egal a un premier nombre 
predetermine VI propre au modele sous-lexical, et le modele d' articulation contient 
differentes modelisations possibles ej de possibles combinaisons de ces entnes sous- 
lexicales, numerotees de facon contigue et presentant un nombre total inferieur ou 
egal a un deuxieme nombre predetermine V2 propre au modele d' articulation, les 
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numeros des entites sous-lexicales et de leurs combinaisons possibles constituant les 
parametres auxquels la fonction scalaire h predeterminee est destinee a etre appliquee. 

Chaque valeur prise par la fonction scalaire predeterminee est une concatenation 
d'un reste, qui peut varier de 0 a (Vl-1), d'une premiere division entiere par le 
5 premier nombre predetermine VI du numero de la modelisation d'un etat d'une entite 
sous-lexicale identifie au moyen du premier modele et d'un reste, qui peut varier de 0 
a (V2-1), d'une deuxieme division entiere par le deuxieme nombre predetermine V2 
du numero de la modelisation d'un etat d'une combinaison d'entites sous-lexicales 
identifie au moyen du deuxieme modele. Ainsi, si dans un exemple irrdaliste car 
10 simplifie a l'extr&ne pour permettre une comprehension aisee de l'invention, les 
entites sous-lexicales modelisees dans le premier modele de Markov sont trois 
phonemes "p", "a" et "o", dont chacun peut etre modelise par cinq etats distincts, 
c'est-a-dire des etats (ei=0, 1, 2, 3 ou 4) pour le phoneme "p", des > 3 hM*Z 
ou 9) pour le phoneme "a", et des etats (ei=10, 1 1, 12, 13 ou 14) pour le phoneme "o", 
15 le premier nombre predetermine VI sera egal a 5. 

Si les combinaisons d'entites sous-lexicales modelisees dans le deuxieme 
modele de Markov sont deux combinaisons "pa" et "po", dont chacune peut etre 
modelisee par deux Stats distincts, c'est-a-dire des etats (ej=0 ou 1) pour la 
combinaison "pa", et des etats (ej=2 ou 3) pour la combinaison "po", le deuxieme 
20 nombre predetermine sera egal a 4. 

Les differentes modelisations possibles des entites sous-lexicales et de leurs 
combinaisons sont au maximum au nombre de N=20, l'adresse h[(0;0)] de la premiere 
zone memoire MZ1 aura pour valeur la concatenation du reste de la division entiere 
0/Vl=0 avec le reste de la division entiere 0/V2=0 soit la concatenation 00 d'une 
25 valeur 0 avec une valeur 0. L'adresse h[(14;3)] de la Neme zone memoire MZN aura 
pour valeur la concatenation du reste de la division entiere de 14 par VI (avec Vl=5) 
avec le reste de la division entiere de 3 par V2 (avec V2=4), soit la concatenation 43 
d'une valeur 4 avec une valeur 3. 

Une telle concatenation garantit en principe que les valeurs des restes des 
30 premiere et deuxieme divisions entieres seront utilisees sans alteration aux fins de 
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l'adressage des zones memoire, entrainant ainsi une reduction maximale d'un risque 
d'erreur dans l'adressage. Cependant, une telle concatenation conduit a utiliser des 
nombres rendus artificiellement plus grands,que necessaire par rapport au nombre de 
zones memoire N effectivement adressees. Des techniques, connues de l'homme du 
5 metier, permettent de comprimer des nombres a concatener en limitant les pertes 
d'information liees a une telle compression. On pourra par exemple prevoir de faire se 
chevaucher des representations binaires desdits nombres, en realisant une operation 
OU-EXCLUSIF entre des bits de poids faible de i'un de ces nombres binaires avec les 
bits de poids fort de 1' autre nombre binaire. 
10 Afin de faciliter sa comprehension, la description de l'invention qui precede a 

ete faite dans un exemple d'application ou une machine de Viterbi opere sur un 
transducteur unique forme par une composition de deux modeles de Markov. Cette 
description est generalisable a des apphV : o • r;3 unique machine de Vjterbi 
exploite simultanement un nombre P superieur a 2 de sources de connaissances 
15 differentes, formant ainsi un transducteur unique destine a produire des etats 
(eli;e2j;...;ePs), chacun desquels pouvant etre memoris6 dans une zone memoire 
d'une table, laquelle zone memoire sera identifiee au moyen d'une adresse 
h[(eli;e2j;...;ePs)] ou h est une fonction scalaire predeterminee telle que decrite plus 
haut. 

20 La Fig.3 represente sch6matiquement un systeme SYST de reconnaissance 

acoustique selon un mode de mise en oeuvre particulier de l'invention, destine a 
traduire un signal acoustique d'entree ASin en une sequence lexicale de sortie 
OUTSQ. Dans cet exemple, le signal d'entree ASin est constitue par un signal 
electronique analogique, qui pourra provenir par exemple d'un microphone non 

25 represente sur la figure. Dans le mode de realisation decrit ici, le systeme SYST inclut 
un etage d'entree FE, contenant un dispositif de conversion analogique/numerique 
ADC, destine a fournir un signal numerique ASin(l:n), forme d'echantillons ASin(l), 
ASin(2)...ASin(n) cod6s chacun sur b bits, et representatif du signal acoustique 
d'entree ASin, et un module d'echantillonnage SA, destine a convertir le signal 

30 acoustique numerise ASin(l:n) en une sequence de vecteurs acoustiques AVin, 
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chaque vecteur etant muni de composantes AVI, AV2...AVr ou r est la dimension 
d'un espace acoustique defini pour une application donnee a laquelle le systeme de 
traduction SYST est destine, chacune des composantes AVi (pour i=l a r) etant 
evaluee en fonction de caracteristiques propres a cet espace acoustique. Dans d'autres 
5 modes de mise en oeuvre de l'invention, le signal d'entree ASin pourra, des l'origine, 
etre de nature numerique, ce qui permettra de s'affranchir de la presence du dispositif 
de conversion analogique/numerique ADC au sein de l'etage d'entree FE. 

Le systeme SYST inclut en outre un premier decodeur DEC1, destin<§ a fournir 
une selection Intl, Int2...IntK d' interpretations possibles de la sequence de vecteurs 
10 acoustiques AVin en reference a un modele APHM construit sur la base d'entites 
sous-lexicales preti&erminees. 

Le systeme SYST inclut de plus un deuxieme decodeur DEC2 dans lequel un 
proc<§de de track: • . • • *e a l'invention est mis en oeuvre en vue d' analyse* des 
donnees d'entree constitutes par les vecteurs acoustiques AVin en reference a un 
15 premier modele construit sur la base d'entites sous-lexicales predeterminees, par 
exemple extrait du modele APHM, et en reference a un deuxieme modele constant sur 
la base de modelisations acoustiques provenant d'une bibliotheque BIB. Le deuxieme 
decodeur DEC2 identifiera ainsi celle desdites interpretations Intl, Int2...InlK qui 
devra constituer la sequence lexicale de sortie OUTSQ. 
20 La fig.4 represente plus en detail le premier decodeur DEC1, qui inclut une 

premiere machine de Viterbi VM1, destinee a executer une premiere sous-etape de 
decodage de la sequence de vecteurs acoustiques AVin representative du signal 
acoustique d'entree et prealablement gener6e par l'etage d'entree FE, laquelle 
sequence sera en outre avantageusement memorisee dans une unite de stockage 
25 MEM1 pour des raisons qui apparaitront dans la suite de l'expos6. La premiere sous- 
etape de decodage est operte en reference a un modele de Markov APMM autorisant 
en boucle toutes les entites sous-lexicales, de preference tous les phonemes de la 
langue dans laquelle le signal acoustique d'entee doit etre traduit si l'on considere que 
les entites lexicales sont des mots, les entites sous-lexicales etant representees sous 
30 forme de vecteurs acoustiques predetermines. 
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La premise machine de Viterbi VM1 est apte a restituer une sequence de 
phonemes Phsq qui constitue la plus proche traduction phonetique de la sequence de 
vecteurs acoustiques AVin. Les traitements ulterieurs realises par le premier decodeur 
DEC1 se feront ainsi au niveau phonetique, et non plus au niveau vectoriel, ce qui 
5 reduit considerablement la complexity desdits traitements, chaque vecteur etant une 
entite multidimensionnelle presentant r composantes, tandis qu'un phoneme peut en 
principe etre identifie par un label unidimensionnel qui lui est propre, comme par 
exemple un label "OU" attribue a une voyelle orale "u", ou un label "CH" attribue a 
une consonne frictive non-voisee 'f La sequence de phonemes Phsq generee par la 
10 premiere machine de Viterbi VM1 est ainsi constitute d'une succession de labels plus 
aisement manipulables que ne le seraient des vecteurs acoustiques. 

Le premier decodeur DEC1 inclut une deuxieme machine de Viterbi VM2 
^istinee a executer une deuxieme sous-etape de decodage de la sequence de phonemes 
Phsq g6neree par la premiere machine de Viterbi VM1. Cette deuxieme etape de 
15 decodage est operee en reference a un modele de Markov PLMM constitue de 
transcriptions sous-lexicales d'entites lexicales, c'est-a-dire dans cet exemple de 
transcriptions phonetiques de mots presents dans le vocabulaire de la langue dans 
laquelle le signal acoustique d'entree doit etre traduit. La deuxieme machine de 
Viterbi est destinee a interpreter la s6quence de phonemes Phsq, qui est fortement 
20 bruitee du fait que le modele APMM utilise par la premiere machine de Viterbi VM1 
est d'une grande simplicity et met en oeuvre des predictions et des comparaisons entre 
des suites de labels de phonemes contenus dans la sequence de phonemes Phsq et 
diverses combinaisons possibles de labels de phonemes prevues dans le modele de 
Markov PLMM. Bien qu'une machine de Viterbi ne restitue usuellement que celle des 
25 sequences qui presente la plus grande probability la deuxieme machine de Viterbi 
VM2 mise en oeuvre ici restituera avantageusement toutes les sequences de phonemes 
lsql, lsq2...1sqN que ladite deuxieme machine VM2 aura pu reconstituer, avec des 
valeurs de probability associ^es pi, p2...pN qui auront ete calculees pour lesdites 
sequences et seront representatives de la fiabilite des interpretations du signal 
30 acoustique que ces sequences representent. 
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Toutes les interpretations possibles lsql, lsq2...1sqN etant rendues 
automatiquement disponibles a Tissue de la deuxieme sous-etape de decodage, une 
selection operee par un module de selection SM des K interpretations Intl , Int2. . .IntK 
qui presented les plus fortes valeurs de probability est aisee quelle que soit la valeur 

de K qui aura ete choisie. 

Les modeles de Markov APMM et PIMM peuvent etre consid6res comme des 
sous-ensembles du modele APHM evoque plus haut 

Les premiere et deuxieme machines de Viterbi VM1 et VM2 peuvent 
fonctionner en parallele, la premiere machine de Viterbi VM1 generant alors au fur et 
a mesure des labels de phonemes qui seront immddiatement pris en compte par la 
deuxieme machine de Viterbi VM2, ce qui permet de reduire le delai total percu par 
un utilisateur du systeme necessaire a la combinaison des premiere et deuxieme sous- 
etapes de decodage en autorisant la mise en oeuvre de 1' ensemble des rftr'^ 
calcul necessaires au fonctionnement du premier decodeur DEC1 des que les vecteurs 
acoustiques AVin representatifs du signal acoustique d'entree apparaissent, et ^pas 
apres qu'ils aient 6t6 entierement traduits en une sequence complete de phonemes 
Phsq par la premiere machine de Viterbi VM1. 

La Fig.5 represente plus en detail un deuxieme decodeur DEC2 conforme a un 
mode de realisation particulier de Tinvention. Ce deuxieme decodeur DEC2 inclut une 
troisieme machine de Viterbi VM3 destine a analyser la sequence de vecteurs 
acoustiques AVin representative du signal acoustique d'entree qui a etf prealablement 
memorisee a cet effet dans l'unite de stockage MEM1. 

A cet effet, la troisieme machine de Viterbi VM3 est destinee a identifier les 
entit6s sous-lexicales dont les vecteurs acoustiques AVin sont representatifs au moyen 
25 d'un premier modele construit sur la base d'entites sous-lexicales predeterminees, 
dans cet exemple le modele de Markov APMM mis en oeuvre dans le premier 
decodeur et deja decrit plus haut, et a produire des etats eli representatifs des entites 
sous-lexicales ainsi identifiees. Une telle exploitation du modele de Markov APMM 
peut etre representee comme une mise en oeuvre d'un premier transducteur Tl 
30 semblable a celui decrit plus haut. 
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La troisieme machine de Viterbi VM3 genere en outre, au fur et a mesure que 
des entites sous-lexicales sont identifiees et en reference k au moins un modele de 
Markov specifique PHLM construit sur la base d'entites lexicales, diverses 
combinaisons possibles des entites sous-lexicales, et a produire des etats e2j 

5 representatifs des combinaisons entites sous-lexicales ainsi generees, la combinaison 
la plus vraisemblable 6tant destinee a former la sequence lexicale de sortie OUTSQ. 
Une telle exploitation du modele de Markov PHLM peut etre representee comme une 
mise en oeuvre d'un deuxieme transducteur T2 semblable a celui d6crit plus haut 

L'exploitation simultanee des modeles de Markov APMM et PHLM par la 

10 troisieme machine de Viterbi VM3 peut done etre apprehendee comme l'utilisation 
d'un transducteur unique forme par une composition des premier et deuxieme 
transducteurs tels ceux d6crits plus haut, destine a produire des etats (ei;ej) munis 
chacun d'une valeur de vraisemblance Sij. 2: vr • • -•cient a la description de 
l'invention qui precede, ces etats seront memorises dans une table TAB incluse dans 

15 une unite de stockage MEM2, qui pourra former partie d'une memoire centrale ou 
d'une memoire cache incluant egalement l'unite de stockage MEM1, chaque etat 
(ei;ej) etant stocke avec sa valeur de vraisemblance associ6e Sij dans une zone 
memoire ayant pour adresse une valeur h[(ei;ej)], avec les avantages en termes de 
rapidite d'acces precedemment evoques. Un decodeur de memoire MDEC 

20 selectionnera a Tissue du processus de decodage celle des combinaisons d'entites 
sous-lexicales memorisees dans la table TAB qui presentera la plus grande 
vraisemblance, e'est-a-dire la plus grande valeur de Sij, destinee a former la sequence 
lexicale de sortie OUTSQ. 

Le modele de Markov specifique PHLM est ici specialement genere par un 

25 module de creation de modele MGEN, et est uniquement representatif d' assemblages 
possibles de phonemes au sein des sequences de mots formees par les diverses 
interpretations phonetiques Intl, Int2,...IntK du signal acoustique d'entree delivrees 
par le premier d6codeur, lesquels assemblages sont representes par des modelisations 
acoustiques provenant d'une bibliotheque BIB des entites lexicales qui correspondent 
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a ces interpretations. Le modele de Markov specifique PHLM presente done une taille 
restreinte du fait de sa specificit6. 

De la sorte, les acces aux unites de stockage MEM1 et MEM2, ainsi qu'au 
differents modeles de Markov utilises dans l'exemple de mise en ceuvre de l'invention 
5 decrit ci-dessus necessitent une gestion peu complexe, du fait de la simplicite de 
structure desdits modeles et du systeme d'adressage des informations destinees a etre 
m6morisees et lues dans lesdites unites de stockage. Ces acces memoire peuvent done 
etre executes suffisamment rapidement pour rendre le systeme decrit dans cet exemple 
apte a accompUr des traductions en temps reel de donnees d'entree en s6quences 

10 lexicales de sortie. 

Bien que l'invention ait et6 d^crite ici dans le cadre d'une application au sein 
d'un systeme incluant deux decodeurs disposes en cascade, il est tout-a-fait 
envisageable, dans c: 5 ■ v de mise en oeuvre de l'invention, de n'utiliser 

qu'un unique decodeur semblable au deuxieme decodeur decrit plus haut, qui pourra 

1 5 par exemple operer une anaiyse acoustico-phonetique et memoriser, au fur et a mesure 
que des phonemes seront identifies, diverses combinaisons possibles desdits 
phonemes, la combinaison de phonemes la plus vraisemblable etant destinee a former 
la sequence lexicale de sortie. 
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REVENDICATIONS 



1) Proced<§ de traduction de donnees d'entree en au moins une sequence lexicale 
de sortie, incluant une &ape de decodage des donnees d'entree au cours de laqueile 
des entites sous-lexicales dont lesdites donnees sont representatives sont identifiers au 
moyen d'un premier modele construit sur la base d'entites sous-lexicales 

5 pr^determinees, et au cours de laqueile sont generees, au fur et a mesure que les 
entites sous-lexicales sont identifies et en reference a au moins un deuxieme modele 
construit sur la base d'entites lexicales, diverses combinaisons possibles desdites 
entites sous-lexicales, chaque combinaison etant destinee a 6tre ntemorisee, 
conjointement avec une valeur de vraisemblance associee, dans des moyens de 

1Q , , - ror isation qui incluent une plurality de zones ntemoire dont chacune est apte a 
coiitenir au moins l'une desdites combinaisons, chaque zone etant munie d'une 
egale a une valeur prise par une fonction scalaire pted6terminee lorsque ladite 
fonction est appliquee a des parametres propres a des entites sous-lexicales et a leur 
combinaison desthtees a 6tre memorisees ensemble dans la zone consideree. 

15 2) Proc<§de de traduction selon la revendication 1, dans lequel la fonction 

scalaire predetermine est une fonction essentiellement injective. 

3) Proced<§ de traduction selon la revendication 2, dans lequel la fonction 
scalaire predetermine est en outre egalement essentiellement suriective. 

4) Precede de traduction selon la revendication 1, dans lequel le modele sous- 
20 lexical contient des modeles d'entites sous-lexicales dont differents 6tats sont 

numerates de facon contigue et presentent un nombre total inferieur ou egal a un 
premier nombre preti&ermine propre au modele sous-lexical, et dans lequel le modele 
d'articulation contient des modeles de combinaisons possibles d'entites sous-lexicales 
dont differents 6tats sont numerates de facon contigue et presentent un nombre total 
25 inferieur ou egal a un deuxieme nombre pre&ermine propre au modele d'articulation, 
les numeros des etats des entites sous-lexicales et de leurs combinaisons possibles 
constituant les parametres auxquels la fonction scalaire pretieterminee est destine a 
etre applique. 
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5) Proceed de traduction selon la revendication 4, dans lequel chaque valeur 
prise par la fonction scalaire predeterminee est une concatenation d'un reste d'une 
premiere division entiere par le premier nombre predetermine du numero d'un etat 
d'une entite sous-lexicale identifie au moyen du premier modele et d'un reste d'une 

5 deuxieme division entiere par le deuxieme nombre predetermine du numero d'un etat 
d'une combinaison identifie au moyen du deuxieme modele. 

6) Procede de traduction selon Tune des revendications 1 a 5, selon lequel 
l'etape de decodage met en ceuvre un algorithme de Viterbi applique conjointement a 
un premier modele de Markov presentant des tats representatifs de differentes 

10 modelisations possibles de chaque entite sous-lexicale autorisee dans une langue de 
traduction donnee, et a un deuxieme modele de Markov presentant des etats 
representatifs de differentes modelisations possibles de chaque articulation entre deux 
entites sous-lexicales autorisee dans ladite langue de traduction. 

7) Procede de traduction de donnees d'entree en une sequence lexicale de sortie, 
15 incluant une tape de decodage des donnees d'entr6e destinee a etre executed a* 

moyen d'un algorithme du type algorithme de Viterbi, exploitant simultanement une 
pluralite de sources de connaissances distinctes formant un transducteur unique dont 
des etats sont destines a 6tre memorises, conjointement avec une valeur de 
vraisemblance associee, dans des moyens de memorisation qui incluent une pluralite 
20 de zones memoire dont chacune est apte a contenir au moins l'un desdits tats, chaque 
zone etant munie d'une adresse egale a une valeur prise par une fonction scalaire 
predeterminee lorsque ladite fonction est appliquee a des parametres propres aux tats 
dudit transducteur unique. 

8) Systeme de reconnaissance vocale mettant en osuvre un procede de traduction 
25 conforme a l'une des revendications 1 a 7. 
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